Huijia Lu bio photo

Email

My CV

LinkedIn

Instagram

Github

请简单介绍下你自己:

当然,我叫卢汇嘉,是一名悉尼大学‘数据科学’专业的硕士毕业生。

之所以会选择这个专业作为我的硕士专业,是因为我发现现在数字化相关需求全线增长带来了很多行业机遇,于是乎企业会需要越来越多的复合型人才,所以在我本科的会计背景上,我选择了大数据时代下的数据科学作为我的专业。

在我本科的时候,我在一家保险公司:光大永明人寿当过3个月的团险业务实习生,在那时候我发现有些工作十分的重复,而且理赔受理、材料审核等流程多采用人工手段处理,完全可以通过电脑数据处理的方法来增加工作效率。那时候我就使用了python进行了简单的数据清洗以及可视化,帮助识别出客户信息不匹配或金额不匹配的理赔案件,从而提升了近30%的工作效率。

在我读硕士的时候,我对数据分析有了更系统的认知,也参加了几个项目,像是使用深度学习算法对一个8g的音频数据进行预测分析,或是使用python搭建了一个基于mysql数据库的线上交易查询网站,或是利用r语言对一个数据集进行了从数据清洗到建模的一个完整的数据分析过程。

在工作之外,我还有在github上创建了一个自己的网站,里面主要是整理我的一些学习笔记。在搭建个人站点的过程中,我学到了许多课堂以外的知识,比如:markdown, html, git等等。我相信只要坚持学习,就可以永远跟得上最新的时代。

未来5年职业规划:

我的长期打算是未来有独当一面的能力带领整个团队分析解决问题,制定规划,完成较复杂项目。我对风控分析非常感兴趣,因为之前在大学有修过关于自然语言处理的课程,所以我对点评业务风控系统尤其感兴趣。除此之外,我对公司对新员工的培养的方式十分认可,我相信通过公司的培养能够得到对这行业、岗位更深刻的认识。

请说下你的优缺点:

  • PROS:

    • 我认为我是个不怕挑战的人,我相信这点可以从我转专业从会计到数据科学的时候看出,作为一名商科到理科的学生,一开始都是十分的吃力,但我通过在网上自己查找资源,比如看B站教学,或是看github上高星的项目自我总结、学习,最后去也是以81的均分在悉尼大学毕业了。
  • 我认为在我过去的实习经验很好培养我的独立完成工作的能力,像之前在立信实习的时候,我就独立完成了5起实地盘点的工作,其中还需要与出差地的客户经理还有医院、设备存放地负责人进行沟通。

  • CONS:

    • 有时候我会很容易分心,尤其是在面对多项任务压力时。过去,我常常试图一次性完成所有任务,但结果是虽然任务都完成了,但质量并不理想。后来我找到了一个解决办法:为每项任务设定优先级,一次只专注于完成一项任务。这样逐步进行,我发现不仅工作效率提高了,任务完成的质量也有所提升,同时也不会感到不知所措。

    • 尽管我并非完美主义者,但有时关注细节仍然是有益的,特别是在企业环境中能够帮助加速推进工作。尽管过去我曾犯过一些尴尬的错误,但我正在努力改进。因此,我现在养成了在某些容易出错的情况下进行反复检查的习惯。

行为问题:

有成就感的事情:

在我看来我最有成就感的事是在我毕设中,顺利完成一项我之前从没接触过的领域的项目。

当时我接到的课题是一个关于检测睡眠时呼噜音频的任务,然而在此之前我没有过相关的经验,所以对这个任务我都是一头雾水,上手也比较慢,所以也经常出各种各样的问题。那段时间我挫败感特别强,每天都非常焦虑。

当时客户给我定了一个指标,就是要求模型的准确度达到70%,但我最开始所作出的模型,只能达到42%的准确度,距离目标差距还是非常大的。

因此我主要做了2个核心的工作:

首先我先自己查找相关领域的资料、论文,看看人家是怎么做的,从而找到有什么可以借鉴的方法。

其次我去请教了我的导师,让他们帮忙去分析以下我现在做的模型,找到我的问题在哪。那时候导师也给我推荐了一些更有针对性的资料。

最后我通过方法优化,模仿借鉴他人的经验,在不到一个月的时间,完成了客户指定的模型指标,并将准确度提高到了75%。通过这件事我也明白了,很多事情还是需要我们去相信自己,只要努力就一定是可以达到的。

团队陷入僵局怎么解决的:

我先前遇到了团队陷入僵局的情况,特别是在学校的一个小组作业中。我们的任务是起草一份咨询公司的收购书,我担任小组的组长负责组织讨论和任务分配。然而,在一次例行会议上,团队成员对于该咨询公司是否值得被并购产生了分歧,这导致了团队陷入僵局。

为了解决这种情况,我采取了两个主要措施:

首先,我让每位团队成员阐述他们的观点,并努力找出共同点。我鼓励开放式的讨论,确保每个人都有机会表达自己的看法。然后,我促使团队成员将注意力集中在我们可以达成共识的方面,并提出了一个基于这些共同点的提议。通过这种方式,我们找到了一个团队可以接受的共同立场。

其次,我重新分配了每个团队成员的职责,以便他们能够从不同的渠道获取新信息。我鼓励他们在重新分配的任务中寻找新的观点,并将这些观点与我们之前找到的共同点相结合。这种重新分配任务的做法有助于团队成员在解决问题时保持新鲜的思维,同时也促进了团队合作和协作。

通过这些措施,我们最终成功地摆脱了团队僵局,重新获得了动力并推动了项目的进展。这次经历让我意识到,团队合作和有效的沟通是解决问题的关键,而重新分配任务则有助于促进新思路的涌现和团队的创造力。

面对工作中的突发状况怎么处理:

首先制定每日工作计划,清楚自己每天要做哪些事情,这样才可以分清哪些是计划之外的事情。记得不要把每天的时间安排得满满当当,要适当留出15%-20%的机动时间。

然后,当突发事件来临时,要判断这个事件是不是属于自己的责任范围,如果是别人的工作,而且自己时间或精力有限的话,可以将责任推回给相关人员。如果是自己的工作,看一下能否授权他人来做。

随后,如果确定自己必须亲自处理这个突发事件,就需要为其安排一个合理的解决时间。如果发现可以在5分钟内解决,那就立即着手处理。如果需要更长的时间,就将其列入当天的工作计划中,并在合适的时间段安排处理。

把新的方案或想法运用到工作中的例子:

之前在光大永明人寿公司的团险理赔部门在处理客户理赔和问题时效率低下。客户往往需要等待较长时间才能得到解决方案,这导致了不满和流失。

我那时候就想能否利用现有的数据结合上编程的方法来实现一个小小的自动化,用于提高理赔的效率。

我主要做了两点来协助团队提高理赔效率: 首先我编写了一个excel的vba功能,用于将数据从不同的来源导入到Excel中,并进行自动化的清洗、筛选和分析,从而加快数据处理的速度和准确性。

其次我使用excel的数据可视化功能,来帮助团队更好的查看像是理赔原因分布平均理赔金额等指标的变化,从而更直观、更全面地了解保险理赔业务的状况,从而更好地进行决策和管理。

在我实施的理赔自动化的帮助下,团队理赔的整体效率提升30%,也获得了部门领导的肯定。

时间紧任务重的情况下怎么完成任务的:

接受老板下达的任务时,首先需要对任务进行全面评估,包括任务难度、完成周期是否可控在7天内、所需人力、物力和其他资源等方面。

在任务评估的基础上,需要将任务拆解成一个个小任务,并在确定了完成时间的前提下,合理规划每天完成的任务内容和时间节点。对于时间紧迫、任务繁重的情况,尤其需要严格把控时间节点,确保任务按时高质量完成。

如果发现个人无法独自完成任务,需要与同事协作或申请资源协助,可以在接受任务后,向老板说明情况并提出资源需求。

在按照任务节点规划执行的过程中,要及时向老板汇报任务完成进度,确保老板对任务进展有清晰的了解。

最后,完成任务后需要及时交付,并向老板汇报完成情况。同时,要对执行过程中遇到的问题进行总结和梳理,并提出解决方案,以便今后的改进和优化。

预测问题 (费米问题):

  1. 确定细节
    • 是收益还是利润
    • 如果是利润,那什么会被认定为成本,薪资算么
    • 比如洗发水,是单独的洗发水包装呢,还是配套的洗护套装也算呢?
  2. 基本该知道的数据:
    • 中国人口:15亿
    • 家庭平均人数:3人
    • 家庭数:5亿
    • 预计寿命:80岁
    • 一年小时数:9000
    • 一年分钟数:500,000
  3. 列出等式
  4. 想一想不适用的情况:
    • 比如长发哥,和尚,尼姑可能没有剪头发需求
  5. 分解等式中的成分,变成一个个小问题
    • 比如:芝加哥有多少个钢琴调音师?
    • Formula: 一年要调音的钢琴数 * 一架钢琴调音的时长 / 调音师的一年工作时长
    • 一年要调音的钢琴数:钢琴数量 / 钢琴一年调音次数
    • 钢琴数量:芝加哥人口数 / 芝加哥家庭平均人数 / 拥有钢琴的家庭人数
    • 钢琴一年调音次数: 假设3年一次,每年0.33次
    • 一架钢琴调音的时长:假设为3小时
    • 调音师的一年工作时长:一年工作天数 * 一天工作小时
  6. 检查假设

  7. 计算
    • 一年要调音的钢琴数:300W / 4 * $\frac{1}{3}$ = 25W架 * 0.33 = 8.3W架 per year
    • 总调音时长:8.3W * 3 = 249000H
    • 调音师的一年工作时长:24 * 24 * 0.6 = 3600H
    • 调音师数量:249000H / 3600H = 69位
  8. 现实性验证 - Sanity Check

SQL留存率问题:

  1. 使用LEFT JOIN进行自连接,并根据题目要求设定DATEDIFF (次日[1],三日[3])等。
  2. 在得到连接完的表后,左边的主表即原表,右边的表是筛选出来的(次日/三日)后登录的同一用户。
  3. 那么通过$\frac{筛选表中的user\ id\ number}{原表中的user\ id\ number}$, 就可以得出相对应的留存率。

最大人数问题:

  1. 将用户的进入时间单独拉出来,附上tag:1;同样的将离开的时间也拉出来,附上tag:-1。然后UNION ALL这两个表,按照时间排序,意思就是:进来一个加1,离开一个减1.
  2. 接下来利用窗口函数SUM()对计数(1或者-1)累计求和,因为题目规定:同一时刻有进入也有离开时,先记录用户数增加再记录减少,所以排序的时候就要看好了先按时间排序,再按计数排序!
  3. 然后再在每个分组里面去求最大的累积和就是最多同时在线的人数了!